逆钢筋学习尝试在马尔可夫决策问题中重建奖励功能,使用代理操作的观察。正如Russell [1998]在Russell [1998]的那样,问题均为不良,即使在存在有关最佳行为的完美信息的情况下,奖励功能也无法识别。我们为熵正则化的问题提供了解决这种不可识别性的分辨率。对于给定的环境,我们完全表征了导致给定政策的奖励函数,并证明,在两个不同的折扣因子下或在足够的不同环境下给出了相同奖励的行动的示范,可以恢复不可观察的奖励。我们还向有限视野进行时间均匀奖励的一般性和充分条件,以及行动无关的奖励,概括Kim等人的最新结果。[2021]和Fu等人。[2018]。
translated by 谷歌翻译
我们将一般的多军匪徒问题视为一个相关(和简单的上下文和不安)元素,是一个放松的控制问题。通过引入熵正则化,我们获得了对值函数的平滑渐近近似。这产生了最佳决策过程的新型半指数近似。该半指数可以被解释为明确平衡探索 - 探索 - 探索权衡取舍,就像乐观的(UCB)原则中,学习溢价明确描述了环境中可用的信息的不对称性和奖励功能中的非线性。所得的渐近随机对照(ARC)算法的性能与其他相关的多臂匪徒的方法相比有利。
translated by 谷歌翻译
连续归一化流(CNF)是一类生成模型,可以通过求解普通的微分方程(ODE)将先验分布转换为模型分布。我们建议通过最大程度地减少概率路径差异(PPD)来训练CNF,这是CNF产生的概率密度路径与目标概率密度路径之间的新型差异家族。 PPD是使用对数质量保护公式制定的,该公式是线性的一阶部分微分方程,将对数目标概率和CNF的定义向量场进行配方。 PPD比现有方法具有多个关键好处:它避免了在迭代中解决颂歌的需求,很容易应用于歧管数据,比例到高维度,并与大型目标路径兼容,该目标路径在有限的时间内插值纯噪声和数据。从理论上讲,PPD显示为结合经典概率差异。从经验上讲,我们表明,通过最小化PPD实现最新的CNF在现有的低维歧管基准上获得了最新的可能性和样品质量,并且是生成模型以扩展到中度高维歧管的第一个示例。
translated by 谷歌翻译
我们研究了摊销优化的使用来预测输入度量的最佳运输(OT)图,我们称之为元。通过利用过去问题的知识和信息来快速预测和解决新问题,这有助于反复解决不同措施之间的类似OT问题。否则,标准方法忽略了过去解决方案的知识,并从头开始重新解决每个问题。元模型在离散设置中超过了log-sinkhorn求解器的标准收敛速率,并在连续设置中凸电势。我们通过在图像,球形数据和调色板之间的离散和连续传输设置中多个数量级来改善标准ot求解器的计算时间。我们的源代码可在http://github.com/facebookresearch/meta-ot上找到。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
域适应(DA)最近在医学影像社区提出了强烈的兴趣。虽然已经提出了大量DA技术进行了用于图像分割,但大多数这些技术已经在私有数据集或小公共可用数据集上验证。此外,这些数据集主要解决了单级问题。为了解决这些限制,与第24届医学图像计算和计算机辅助干预(Miccai 2021)结合第24届国际会议组织交叉模态域适应(Crossmoda)挑战。 Crossmoda是无监督跨型号DA的第一个大型和多级基准。挑战的目标是分割参与前庭施瓦新瘤(VS)的后续和治疗规划的两个关键脑结构:VS和Cochleas。目前,使用对比度增强的T1(CET1)MRI进行VS患者的诊断和监测。然而,使用诸如高分辨率T2(HRT2)MRI的非对比度序列越来越感兴趣。因此,我们创建了一个无人监督的跨模型分段基准。训练集提供注释CET1(n = 105)和未配对的非注释的HRT2(n = 105)。目的是在测试集中提供的HRT2上自动对HRT2进行单侧VS和双侧耳蜗分割(n = 137)。共有16支球队提交了评估阶段的算法。顶级履行团队达成的表现水平非常高(最佳中位数骰子 - vs:88.4%; Cochleas:85.7%)并接近完全监督(中位数骰子 - vs:92.5%;耳蜗:87.7%)。所有顶级执行方法都使用图像到图像转换方法将源域图像转换为伪目标域图像。然后使用这些生成的图像和为源图像提供的手动注释进行培训分割网络。
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译
最近的工作表明,深增强学习(DRL)政策易受对抗扰动的影响。对手可以通过扰乱药剂观察到的环境来误导DRL代理商的政策。现有攻击原则上是可行的,但在实践中面临挑战,例如通过太慢,无法实时欺骗DRL政策。我们表明,使用通用的对冲扰动(UAP)方法来计算扰动,独立于应用它们的各个输入,可以有效地欺骗DRL策略。我们描述了三种这样的攻击变体。通过使用三个Atari 2600游戏的广泛评估,我们表明我们的攻击是有效的,因为它们完全降低了三种不同的DRL代理商的性能(高达100%,即使在扰乱的$ L_ infty $绑定时也很小为0.01)。与不同DRL策略的响应时间(平均0.6ms)相比,它比不同DRL策略的响应时间(0.6ms)更快,并且比使用对抗扰动的前攻击更快(平均1.8ms)。我们还表明,我们的攻击技术是高效的,平均地产生0.027ms的在线计算成本。使用涉及机器人运动的两个进一步任务,我们确认我们的结果概括了更复杂的DRL任务。此外,我们证明了已知防御的有效性降低了普遍扰动。我们提出了一种有效的技术,可检测针对DRL政策的所有已知的对抗性扰动,包括本文呈现的所有普遍扰动。
translated by 谷歌翻译
多边缘最佳运输使人们能够比较多种概率措施,这些措施越来越多地发现在多任务学习问题中的应用。多边缘运输的一个实际限制是测量,样品和维度数量的计算可扩展性。在这项工作中,我们提出了一种基于随机一维投影的多边缘最佳运输范例,其(广义)距离我们术语切片的多边缘Wasserstein距离。为了构建该距离,我们介绍了一维多边缘Kantorovich问题的表征,并使用它来突出切片的多边缘Wasserstein距离的许多属性。特别是,我们表明(i)切片的多边缘Wasserstein距离是一种(概括的)指标,其诱导与标准的Wasserstein距离相同的拓扑,(ii)它承认无维样本复杂度,(iii)是与切片沃斯斯坦度量标准下的双重Centric的问题紧密连接。我们通过说明切片的多边缘Wasserstein对多任务密度估计和多动力增强学习问题的结论。
translated by 谷歌翻译
While the brain connectivity network can inform the understanding and diagnosis of developmental dyslexia, its cause-effect relationships have not yet enough been examined. Employing electroencephalography signals and band-limited white noise stimulus at 4.8 Hz (prosodic-syllabic frequency), we measure the phase Granger causalities among channels to identify differences between dyslexic learners and controls, thereby proposing a method to calculate directional connectivity. As causal relationships run in both directions, we explore three scenarios, namely channels' activity as sources, as sinks, and in total. Our proposed method can be used for both classification and exploratory analysis. In all scenarios, we find confirmation of the established right-lateralized Theta sampling network anomaly, in line with the temporal sampling framework's assumption of oscillatory differences in the Theta and Gamma bands. Further, we show that this anomaly primarily occurs in the causal relationships of channels acting as sinks, where it is significantly more pronounced than when only total activity is observed. In the sink scenario, our classifier obtains 0.84 and 0.88 accuracy and 0.87 and 0.93 AUC for the Theta and Gamma bands, respectively.
translated by 谷歌翻译